查看原文
其他

New Bing技术架构普罗米修斯:AGI 驱动智能应用开发的基本框架

走向未来 走向未来 2023-08-31

         

New Bing背后的技术架构被命名为“普罗米修斯”,那是一个盗取火种的神明。已经有人从宿命论的视角来解说,说 New Bing就是硅基智能体的普罗米修斯,他帮助硅基智能体从碳基人类中盗取火种。当然,撇开这个迷信的说法,探究普罗米修斯的架构,对产业应用 GPT-4或其他大模型,有着非常重要的借鉴意义。或许,这种架构在接下来会成为主流,抽象出来,就是如下这个 AGI应用架构,这个对于不是自己设计大模型的应用层来说,至关重要。

         

AGI 驱动的智能应用开发框架

GPT-4 模型代表了大型语言模型 (LLMs) 的突破,但与其他 LLM 非常相似,它是通过给定时间点的数据进行训练的, 这与搜索引擎的目标背道而驰。微软的 New Bing探索了将 LLMs 和Bing搜索引擎的强大功能相结合,致力于提供更丰富、更及时、更相关和更准确的结果。但事实上,从上一篇文章中可以看到【从悉尼到普罗米修斯:New Bing的表演】,New Bing所提供的内容依然存在大量“一本正经胡说八道”的现象,并会给出不准确的参考链接。这种误导性更大,而解决这个问题,目前看来,还是要依靠知识图谱。特别是在领域特定的应用。

New Bing背后的技术被称为 普罗米修斯(Prometheus),它是微软首创的AI 模型,能够将新鲜全面的 Bing 索引、排名和答案结果与GPT-4模型相结合。其架构如下图所示。

普罗米修斯技术框架


本文是系列文章《迈向以人为本的通用人工智能时代》的一部分,一共已发9篇,此前的三篇如下,更多的请关注公众号阅读。

  1. 大语言模型LLMs技术精粹,GPT-1架构全解析:九层之台起于累土——且看AI江湖之起高楼

  2. 始自 ChatGPT,迈向AGI:于《四川日报:川观智库》问计高质量发展及包含 GPT-4的内容补充

  3. 从悉尼到普罗米修斯:New Bing的表演


 Prometheus通过名为 Bing Orchestrator 的组件迭代生成一组内部查询,选择相关性强的内部查询并利用Bing搜索结果,由此 GPT-4模型提供了相关和新鲜的信息,使其能够回答最近的问题并减少不准确(这个过程被称为接地Grounding),GPT-4模型对 Bing 提供的数据进行推理通过这个过程,New Bing实现了在给定对话上下文中的用户查询提供准确而丰富的答案。从上图可以看出,Bing Orchestrator 以 Bing搜索引擎返回的 数据为基础来实现对话的响应的。换句话说,New Bing中的GPT-4模型是基于搜索引擎返回的数据进行推理的,其响应是由 Bing 数据支持或 grounding 的。

搜索基本上以 Bing搜索引擎为基础,不过应该做了一些优化,搜索结果和直接用 Bing 搜索略有差别。也可能是本地化和个性化等因素导致的差异。

这也说明了我前一篇文章的观点:“New Bing 这样的架构本身依赖于 Bing搜索的质量,但 Bing 本身搜索质量堪忧,所以答案经常也会出现胡编的情况。而这个其实比 ChatGPT 更危险。”


这里所使用的 Bing Index、Ranking 和 Answers,是 Bing 搜索引擎的核心。可参考Bing站长指南【https://www.bing.com/webmasters/help/webmasters-guidelines-30fba23a】深入了解。熟悉引擎的应该知道,Index 和 Ranking 的作用。Index 是获取相关网页的大库,通常一个检索都会命中大量的结果。Ranking 是对命中的结果进行排序,考虑的维度包括相关性、质量和可信度、用户参与度、新鲜度、位置和页面加载时间等。Bing Answers主要是基于Bing 的知识图谱来提供用户问题的直接答案,例如 “埃菲尔铁塔有多高?的返回结果“300 m”等。https://www.microsoft.com/en-us/research/wp-content/uploads/2015/03/Ke-Yan_QnAAtBing.pdf】

顺带说一下,Bing answers 和 知识图谱是相互配合和支持的,它们共同构成了 Bing 搜索引擎的智能核心。Bing answers 会利用 知识图谱中的实体和关系来生成或提取最合适的答案,并以不同的形式展示给用户,如卡片、列表、表格等。知识图谱会根据 Bing answers 的反馈和用户行为来更新和扩充自己的内容,以保持知识的新鲜和完整。而且,Bing在2015年推出知识图谱的时候就有超过十亿个实体(人物、地点和事物),对于这些实体,有超过210亿个相关事实(属性三元组),180亿个关键动作链接(事实的来源)以及超过50亿个实体之间的关系。

Bing Answer

Bing 知识图谱

在New Bing的最后,Prometheus 还会将天气、股票、体育、新闻等相关的 Bing 搜索结果附加到聊天的响应中,以提供更丰富、更具吸引力的用户体验。此外,Prometheus 还将引文集成到聊天响应的答案中,以便用户可以轻松单击以访问这些来源并验证信息。将流量发送到这些来源对于健康的网络生态系统很重要,并且仍然是我们的首要 Bing 目标之一。  

最后,继续介绍HAGI(以人为本通用人工智能)

人工智能发展至今,已经出现了能够将神经网络大模型(联结主义)、知识图谱(符号主义) 、强化学习(行为主义)三者融合的智能系统。从 GPT-4出来之后,奇点来临已经被广泛接受,但我在兔年春节期间就认为通用人工智能(AGI )曙光已现(文章将《新程序员》书籍上出版),可能是国内最早的。现在仅仅初现曙光的 AGI,我称之为婴儿期的AGI,或称之为 AGI 的幼芽。未来,通用人工智能的进一步发展,必将使得曙光上升为朝阳,婴儿茁壮成长成青壮年,幼芽长成参天大树。那时, AGI不仅仅为人类带来效率革命,或将为人类来带来思维革命。这种变革可能从改造自然到改造自身(也是ChatGPT 出来后最早提出思维革命的,包括对教育的影响,文章将发表在期刊《对外传播》上),其影响深远程度可能远超此前所有三次工业革命的总和。也许,我们的后辈的形态,也是我们现在所无法想象的。

“以人为本AGI(Human-Centered AGI,HAGI)” 就是以人类为中心的通用人工智能,也就是说人工智能是以服务人类为目的的,是 AGI 的一个。我将其定义为:

神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习=人本AGI

其中,⊕表示了某种组合/融合的方法,并且:

  • Ø神经网络大模型:连接主义发展至今的代表性成果,实现了语言、声音、视觉等的理解。其中GPT-3.5代表着语言大模型,GPT-4则代表了语言和视觉融合的多模态大模型。未来,声音也必然会融合进去,而这个声音不仅仅是说话 Speech,还包括各种自然的声音,比如虫鸣、鸡叫、狗汪、蛙声等等。随着 AGI 的发展,多模态跨模态的神经网络大模型形成了AGI 感知和理解外部世界的关键环节。神经网络大模型的基础是深度学习,建议学习花书《深度学习》深入了解其技术原理。

  • Ø知识图谱 :符号主义发展至今的代表性成果,随着 AGI 的发展,知识图谱本身也需要不断发展,目前这种知识图谱未必是最终形态,比如拥有更强表达能力、知识计算的计算、推理和规划能力的知识图谱,知识计算引擎、神经符号学等等都是可以衍生的内容。知识图谱承接着两个关键的任务,一方面是增强事实性(包括新鲜、及时的事实),为 AGI提供符合人类社会认知的事实及凭据。另一方面知识图谱、神经符号学和知识计算引擎还承担着复杂推理的任务,比如构建科学大厦的构建等。New Bing和 Google Bard(LaMDA)走出了一步, 未来还要继续探索。对知识图谱有兴趣的,建议学习珠峰书《知识图谱:认知智能理论与实战》深入了解知识图谱的构建、存储、规划和推理等技术原理。

  • Ø强化学习:行为主义发展至今的代表性成果,其在 AGI的应用目前来看是 RLHF,是AGI从外部世界 交互和持续学习的关键技术。人类能够持续适应环境并改造环境的核心是能够从外部世界学习,RLHF 则承担AGI 从现实世界不断学习的关键技术。随着 AGI 的发展,强化学习本身也会不断发展,PPO 未必是最佳的形式。对强化学习有兴趣的,建议学习《强化学习(第2版)》深入了解强化学习的技术原理。

         

对于没有完整的 AGI 技术栈的大多数公司来说,如下的技术架构是合理的,是能够将自身产品和大模型结合,充分利用 AGI 发展成果的一种方法。

                   

更多阅读:

大语言模型LLMs技术精粹,Transformer模型架构全解析:三生万物——且看AI江湖基石

大语言模型LLMs技术精粹,稀疏变换器网络全解析:变则通,通则久——且看AI江湖基石

大语言模型LLMs技术精粹总纲:重剑无锋,大巧不工——且看AI江湖刀剑争锋的源流

         

         

         

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存